图式是通过允许模型将复杂的任务分解为中间步骤来帮助人工智能的复杂任务的结构化表示。我们提出了一种新颖的系统,它引导了来自网络视频的模式,并通过提高视频检索性能的目标来概括他们捕获看不见的任务。我们的系统在三个主要阶段进行:(1)给定有关相关视频的任务,我们使用联合视频文本模型构造一个任务的初始模式,以匹配具有从WikiHow的文本的文本的视频片段; (2)通过利用语言模型来编辑现有模式中的文本来概括模式以解除任务。通过泛化,我们可以允许我们的模式涵盖具有少量学习数据的更广泛的任务; (3)我们将零拍摄的教学视频检索与未经说明的任务名称进行查询。我们的架构引导方法优于现有的视频检索方法,我们证明我们系统引起的模式优于其他模型产生的方法。
translated by 谷歌翻译